Hoạt động phân hạng các trang Web Máy_truy_tìm_dữ_liệu

Ngoài việc xử lý số lượng trang tìm thấy theo yêu cầu của một từ khoá trong kho dữ liệu cập nhật của nó, các máy truy tìm dữ liệu còn phải tìm cách chống lại sự nhiễu loạn của các trang không có nội dung phù hợp với yêu cầu nhưng vẫn lọt vào danh sách tuyển chọn của máy truy tìm.

Nguyên do của các nhiễu loạn này là việc các trang Web chuyên về quảng cáo hay tiếp thị luôn luôn tìm cách để lọt vào hàng đầu trong danh sách tuyển chọn của máy truy tìm, và qua đó họ có thể giới thiệu sản phẩm của họ đến người dùng. Ngược lại, người dùng, trong đa số các trường hợp, không muốn tìm các quảng cáo tiếp thị mà chỉ muốn tìm các dữ liệu khác theo ý đã ghi trong từ khoá.

Do các đặc điểm phức tạp trên, việc phân hạng các trang Web tìm được bởi một bộ từ khoá cho trước của máy truy tìm sẽ dựa vào việc áp dụng thêm các thuật toán hay biện pháp xử lý đặc biệt:

Những tiêu chí quan trọng dùng trong phân hạng

Dưới đây là các tiêu chí chủ yếu mà các thuật toán của các máy tìm kiếm Web sử dụng để phân hạng các trang Web:

  1. Tần số phát sinh : được hiểu là tổng số lần xuất hiện của một chữ hay một cụm từ của từ khoá trong nội dung một trang Web nào đó. Theo sự đánh giá của các chuyên gia, thì tần số phát sinh của một trang Web càng cao sẽ chứng tỏ nội dung của trang Web đó càng liên quan hay càng đề cập nhiều đến những gì nêu trong từ khoá. Do đó, mật độ từ khóa đóng vai trò quan trọng trong việc phân hạng một trang Web.
  2. Thẻ meta và câu lệnh title:
    Theo ngôn ngữ HTML, thì thẻ meta là các câu lệnh nằm ở phần đầu (header) của mã của một trang Web. Thẻ meta có dạng:
    <META (các thông số cho câu lệnh meta)>
    Trong nhiều máy truy tìm, người thiết kế còn cho rằng sự xuất hiện các chi tiết hay toàn bộ nội dung của từ khoá càng sớm trong một trang mã HTML thì điều đó chứng tỏ trang đó có thể có chủ đề liên quan càng nhiều đến từ khoá. Hậu quả là một trang Web có thể được phân hạng cao hơn nếu các phần hay toàn bộ từ khoá có mặt sớm hơn trong phần mã HTML. Như vậy, trong một số thẻ meta, máy truy tìm sẽ đọc nội dung và lấy ra các yếu tố phân hạng. Các thẻ meta có nhiều hiệu lực cho việc phân hạng là:
    • <META name="description" content="(miêu tả ngắn nội dung trang Web)">
    • <META name="keywords" content="(danh sách từ khoá)">
      Với lý do tương tự, nếu câu lệnh
    • <title>(tựa đề của trang Web)</title> không bị bỏ trống thì thứ hạng của nó có thể được nâng cao hơn.
  3. Ngôn ngữ: Nếu một người dùng đang nối vào Internet bằng một máy tính sử dụng tiếng Pháp thì việc hiển thị các trang Web có cùng ngôn ngữ Pháp với máy tính đó rõ ràng là hiệu quả hơn cho người đó. Do đó, yếu tố ngôn ngữ của trang Web cũng được chú ý trong phân hạng.
  4. Số lượng liên liên kết ngoài: Theo sự đánh giá của nhiều chuyên gia phát triển máy truy tìm thì nếu một trang Web được nhiều nơi khác đề cập tới hay mở liên kết tới địa chỉ của nó thì rõ ràng giá trị của trang Web này cao hơn là các trang Web cùng kiểu nhưng lại không có hay ít được liên kết hay đề cập từ các trang khác. Như vậy, các trang Web nào được nhiều trang Web khác liên kết tới (hay đề cập tới) thì chất lượng của nó có thể cao hơn và được phân hạng cao hơn.

Kỹ thuật nâng cao thứ hạng cho một trang Web

Việc nâng cao thứ hạng của một trang Web cho các máy truy tìm là do các nguyên nhân sau đây:

  • Các cơ sở thương mại hay các cơ quan có hoạt động này muốn hoà nhập vào thị trường toàn cầu. Họ có các trang Web, một trong những biện pháp quan trọng là làm sao các trang Web này đến được người dùng Internet. Ngoài việc đăng quảng cáo trên trang phổ biến thì việc làm sao cho địa chỉ trang Web của họ được hiển thị ngay từ trang trả về đầu tiên cũng là một biện pháp quan trọng ảnh hưởng tới việc tiếp thị.
  • Các trang Web truyền bá thông tin hay tuyên truyền những đề tài riêng cũng muốn đem thông tin của mình phổ biến đến được người dùng ở khắp nơi nên cũng mong muốn nâng cao thứ hạng trang Web của mình.

Do tầm quan trọng của việc xếp thứ bậc cho một trang Web nên đã nảy sinh các hậu quả:

  • Sự ra đời của các công ty tư vấn về nâng cao thứ hạng cho trang Web: các công ty này sẽ nhận làm các dịch vụ SEO cho thân chủ để đưa thứ hạng các trang đó lên trong danh sách hiển thị trước tiên của các máy truy tìm.
  • Các trang Web giả dụng (page cloaking): Người thiết kế các trang này sẽ tìm cách cung cấp một nội dung có thể nhận sự phân hạng cao trong các máy truy tìm trong khi thực tế nếu một người dùng Internet truy cập đến địa chỉ này (qua trang trả về của máy truy tìm hay qua việc gõ thẳng địa chỉ vào máy truy cập) thì trang đó hiển thị một nội dung hoàn toàn khác với sự đánh giá của máy truy cập. Hành động này xuất phát từ ý muốn tăng cường khả năng tiếp thị của một số trang Web.
Kỹ thuật đánh lừa các máy truy tìm như trên không quá phức tạp. Một ví dụ là chỉ việc thêm vào phần nội dung các thẻ meta và câu lệnh title thật nhiều chữ hay đoạn văn bản có khả năng làm tăng thứ hạng của chính nó lên mà thực ra bản thân phần hiển thị (phần giữa câu lệnh body) của trang không hề liên hệ tới. Máy truy tìm khi xét đến các trang như vậy sẽ không thể biết rằng nội dung các văn từ ghi trong thẻ meta hoàn toàn không phù hợp với nội dung hiển thị của nó. Tuy nhiên, sự đánh lừa chỉ có thể xảy ra trong thời gian ngắn. Sau đó, khi nhận được phản ánh từ người dùng, máy truy cập sẽ được điều chỉnh và lúc đó các trang giả dụng này sẽ bị trừng phạt bằng cách xoá hẳn chỉ số đã được gán cho trang Web đó.
  • Tính tạm thời của SEO: Phương pháp phân hạng các trang Web của các máy truy tìm thường thay đổi theo tình hình phát triển của Internet và của sự thay đổi nội dung của các trang Web. Do đó, một trang Web cố định chỉ có thể được phân hạng cao trong một thời hạn cố định mà thôi. Để một trang Web tiếp tục được giữ thứ hạng cao thì nội dung của nó (hay ít nhất nội dung các thẻ meta) phải thay đổi hoặc là tự trang đó phải được tăng liên kết từ các địa chỉ Web khác tới và đây cũng là chỗ cho các nhà chuyên nghiệp về SEO phục vụ.
  • Bảo trợ quảng cáo cho máy truy tìm: Bản thân các máy truy tìm cũng có thể là các cơ quan phục vụ quảng cáo do đó một trong những cách tốt để tăng hiệu quả tiếp thị là tham gia các dịch vụ quảng cáo ngay trên các máy truy tìm.
  • Phá hoại máy truy tìm: Có thể do nhiều nguyên do phức tạp, các tay tin tặc có thể tổ chức tấn công vào máy truy tìm nhất là các máy được ưa chuộng. Ngày 26 tháng 7 năm 2004, hệ thống máy truy tìm lớn nhất hiện tại, Google, đã bị tấn công bởi virus máy tính myDoom làm cho hệ thống này ngưng hoạt động trong khoảng 4 tiếng.